Résumé : 


Le domaine de l'immobilier bénéficie de facon croissante des avancées de l'intelligence artificielle, en 
particulier du machine learning (apprentissage automatique). L'estimation précise des prix des 
maisons est une táche cruciale dans ce secteur, tant pour les acheteurs que pour les vendeurs. 
Ce projet vise à développer un modèle de machine learning pour estimer les prix des maisons, 
en utilisant des données téléchargées du site Kaggle. 


Le machine learning offre des avantages significatifs dans le domaine immobilier. Il permet de traiter 
efficacement de grandes quantités de données complexes et d'extraire des informations utiles 
pour la prise de décision. En utilisant des algorithmes de machine learning, nous pouvons 
exploiter les relations non linéaires entre les caractéristiques des maisons et leurs prix de vente, 
et ainsi améliorer la précision des estimations. 


Le modèle de machine learning que nous allons développer sera basé sur des données provenant du 
site Kaggle, une plateforme de partage de données. Ces données incluent diverses 
caractéristiques des maisons telles que la superficie, le nombre de chambres, le nombre de 
salles de bains, l'emplacement, ainsi que les prix de vente précédents. Ces informations riches et 
variées constitueront la base de notre modéle d'estimation des prix des maisons. 


Le travail á réaliser pour ce projet comprend plusieurs étapes clés. Tout d'abord, nous collecterons et 
prétraiterons les données, en éliminant les valeurs manquantes, en normalisant les 
caractéristiques et en gérant les valeurs aberrantes. Ensuite, nous explorerons les données pour 
comprendre les relations entre les différentes variables et identifier les tendances importantes. 


Une fois les données préparées, nous sélectionnons les caractéristiques les plus pertinentes pour notre 
modèle d'estimation des prix des maisons. Cela nous permettra de réduire la dimensionnalité et 
d'améliorer la précision des prédictions. Ensuite, nous choisirons l'algorithme de machine 
learning approprié, tel que la régression linéaire, les foréts aléatoires ou les réseaux de 
neurones, et nous entraineront le modèle sur l'ensemble de données d'entraînement. 


Pour évaluer les performances de notre modéle, nous utiliserons des métriques telles que l'erreur 
quadratique moyenne (RMSE), le coefficient de détermination (R?) et l'erreur absolue moyenne 
(MAE). Ces mesures nous permettront de comparer les prédictions du modèle avec les valeurs 
réelles des prix de vente des maisons. 


Enfin, nous présenterons les résultats de notre modéle d'estimation des prix des maisons et 
discuterons de leur pertinence dans le contexte de l'immobilier. Nous soulignerons également les 
limites de notre travail et les possibilités d'améliorations futures, telles que l'utilisation de 
modèles plus avancés ou l'intégration de données supplémentaires. 


Abstract : 


The real estate industry is increasingly benefiting from advancements in artificial 
intelligence, particularly in machine learning. Accurate estimation of house prices is 
crucial for both buyers and sellers. This project aims to develop a machine learning 
model to estimate house prices using data downloaded from the Kaggle website. 


Machine learning offers significant advantages in the real estate domain. It efficiently 
processes large volumes of complex data and extracts valuable insights for decision- 
making. By leveraging machine learning algorithms, we can capture non-linear 
relationships between house features and sale prices, thereby enhancing estimation 
accuracy. 


The machine learning model we will develop will be based on data sourced from Kaggle, 
a data sharing platform. The dataset includes various house features such as area, 
number of bedrooms, number of bathrooms, location, and previous sale prices. These 
rich and diverse information will form the foundation of our house price estimation 
model. 


The project involves several key steps. Firstly, we will collect and preprocess the data by 
handling missing values, normalizing features, and addressing outliers. Next, we will 
explore the data to understand relationships between different variables and identify 
important trends. 


Once the data is prepared, we will select the most relevant features for our house price 
estimation model. This will help us reduce dimensionality and improve prediction 
accuracy. Subsequently, we will choose an appropriate machine learning algorithm, such 
as linear regression, random forests, or neural networks, and train the model on the 
training dataset. 


To evaluate the performance of our model, we will utilize metrics such as root mean 
square error (RMSE), coefficient of determination (R?), and mean absolute error (MAE). 
These measures will allow us to compare the model's predictions against the actual sale 
prices of houses. 


Finally, we will present the results of our house price estimation model and discuss their 
relevance in the real estate context. We will also highlight the limitations of our work 
and potential avenues for future improvements, such as utilizing more advanced models 
or incorporating additional data. 


تستفيد صناعة العقارات بشكل متزايد من التطورات في مجال الذكاء الاصطناعيء ولا سيما في التعلم الآلي. يعتبر تقدير الأسعار الدقيقة 
للمنازل أمرًا حاسمًا للمشترين والبائعين على حد سواء. يهدف هذا المشروع إلى تطوير نموذج للتعلم الآلي لتقدير أسعار المنازل 
باستخدام البيانات المحملة من موقع .Kaggjle‏ 


يوفر التعلم الآلي مزايا هامة في مجال العقارات. يعالج بكفاءة D lana‏ البيانات المعقدة ويستخرج نتائج قيمة لاتخاذ القرارات. من 
خلال استخدام خوار زميات التعلم الآلي» يمكننا استغلال العلاقات غير الخطية بين سمات المنازل وأسعار بيعهاء وبالتالي تحسين دقة 


سيستند نموذج التعلم الآلي الذي سنطوره على البيانات المستخرجة من Kaggle‏ وهي منصة مشاركة البيانات. تشمل هذه البيانات 
= من سمات المنازل Jia‏ المساحةء وعدد غرف ca gill‏ وعدد الحمامات» egi gall y‏ وأسعار البيع السابقة. ستشكل هذه 
المعلومات الغنية والمتنوعة أساس نموذجنا لتقدير أسعار المنازل. 


يتضمن العمل في هذا المشروع عدة خطوات رئيسية. Y gl‏ سنجمع ونقوم بتهيئة البيانات عن طريق التعامل مع القيم المفقودة» وتطبيع 
السمات» ومعالجة القيم الطرفية. بعد ذلك» سنقوم باستكشاف البيانات لفهم العلاقات بين المتغيرات المختلفة وتحديد 


Chapitre 1: 
Introduction générale 


Présentation du sujet et de son importance : 


Dans le domaine de l'immobilier, l'estimation précise des prix des biens immobiliers est d'une 
importance capitale tant pour les acheteurs que pour les vendeurs. Cependant, cette tache peut 
s'avérer complexe en raison de la multitude de facteurs qui influencent la valeur d'une propriété, 
tels que la localisation, la taille, les caractéristiques et les tendances du marché. Dans ce 
contexte, l'utilisation de techniques avancées de machine learning et l'établissement d'une 
plateforme d'estimation des prix des biens immobiliers sont devenus essentiels. 


Importance du sujet : 


Aide à la prise de décision : Une estimation précise des prix des biens immobiliers fournit aux 
acheteurs et aux vendeurs des informations cruciales pour prendre des décisions éclairées. Les 
acheteurs peuvent évaluer si une propriété est abordable et représente une bonne opportunité 
d'investissement, tandis que les vendeurs peuvent fixer un prix compétitif et réaliste pour 
maximiser leurs chances de vente. 


Gain de temps et d'efforts : Une plateforme d'estimation des prix des biens immobiliers basée 
sur le machine learning permet d'automatiser le processus d'estimation. Cela évite aux 
acheteurs et aux vendeurs de passer de longues heures à effectuer des recherches manuelles et 
à consulter différentes sources pour obtenir une évaluation approximative. La plateforme 
fournit des estimations rapides et fiables, économisant ainsi du temps et des efforts. 


Précision améliorée : Les techniques de machine learning permettent de traiter de vastes 
quantités de données immobilières, y compris des caractéristiques spécifiques à chaque 
propriété et des données historiques des transactions. En utilisant ces données, les modèles de 
machine learning peuvent détecter des relations complexes entre les caractéristiques des biens 
immobiliers et leurs prix de vente réels. Cela conduit à des estimations plus précises et fiables. 


Adaptabilité au marché : Les marchés immobiliers sont dynamiques et évoluent constamment. 
Une plateforme d'estimation des prix des biens immobiliers basée sur le machine learning peut 
s'adapter rapidement aux changements du marché. En analysant en temps réel les données du 
marché, les modèles peuvent prendre en compte les fluctuations et les tendances, fournissant 
ainsi des estimations actualisées et précises. 


La création d'une plateforme d'estimation des prix des biens immobiliers basée sur le machine 
learning présente une importance considérable dans le domaine de l'immobilier. En fournissant 
des estimations précises, rapides et adaptées au marché, cette plateforme aide les acheteurs et 
les vendeurs à prendre des décisions éclairées et à optimiser leurs transactions immobilières. 
Elle offre également une solution efficace pour économiser du temps et des efforts lors de 
l'estimation des prix des biens immobiliers. 


Objectifs du projet : 


Développer un modèle de machine learning: 


L'objectif principal de ce projet est de développer un modéle de machine learning 
capable d'estimer avec précision les prix des biens immobiliers. Pour atteindre cet 
objectif, nous utiliserons une approche basée sur l'apprentissage supervisé, en entraînant 
le modèle sur un ensemble de données préalablement collectées et préparées. 


Utiliser des données provenant de Kaggle : 


Nous utiliserons des données provenant du site Kaggle, une plateforme populaire pour le 
partage de jeux de données. Ces données comprendront des informations sur les 
caractéristiques des biens immobiliers telles que la superficie, le nombre de chambres, le 
nombre de salles de bains, l'emplacement, ainsi que les prix de vente précédents. 
L'utilisation de données réelles et variées provenant de Kaggle permettra de créer un 
modèle robuste et représentatif. 


Prétraiter les données : 


Avant d'entraîner le modèle, nous devrons prétraiter les données pour les rendre 
adaptées à l'apprentissage automatique. Cela inclut le nettoyage des données en 
éliminant les valeurs manquantes ou aberrantes, la normalisation des caractéristiques 
pour les mettre à la même échelle, et la gestion des variables catégorielles. Un 
prétraitement adéquat des données est essentiel pour garantir la qualité et la 
performance du modèle. 


Sélectionner et entraîner le meilleur modèle : 


Nous explorerons différents algorithmes de machine learning tels que la régression 
linéaire, les forêts aléatoires, les machines à vecteurs de support (SVM) ou les réseaux de 
neurones. Nous sélectionnerons le modèle le plus approprié en fonction de ses 
performances et de sa capacité à fournir des estimations précises des prix des biens 
immobiliers. Nous entraînerons ensuite le modèle sur les données d'entraînement pour 
qu'il puisse apprendre à faire des prédictions. 


Évaluer et optimiser Le modèle : 


Une fois le modèle entraîné, nous l'évaluerons en utilisant des métriques telles que l'erreur 
quadratique moyenne (RMSE), le coefficient de détermination (R?) et l'erreur absolue 
moyenne (MAE). Ces mesures nous permettront de quantifier la performance du modèle 
et de l'optimiser si nécessaire. Nous ajusterons les paramètres du modèle et effectuerons 
des validations croisées pour garantir sa stabilité et sa généralisation. 


Fournir une interface conviviale : 


En plus du développement du modèle, nous souhaitons créer une interface conviviale qui 
permettra aux utilisateurs d'interagir avec la plateforme d'estimation des prix des biens 
immobiliers. Cette interface intuitive leur permettra d'entrer les caractéristiques d'une 
propriété et d'obtenir une estimation instantanée du prix. 


En résumé, les principaux objectifs de ce projet sont de développer un modéle de machine 
learning précis pour estimer les prix des biens immobiliers, d'utiliser des données provenant de 
Kaggle, de prétraiter les données, de sélectionner et d'entraîner le meilleur modèle, d'évaluer et 
d'optimiser sa performance, et de fournir une interface conviviale pour faciliter l'utilisation de la 
plateforme d'estimation des prix. 


Methodologie générale : 


Collecte des données : 


La premiére étape de notre méthodologie consiste á collecter les données nécessaires á notre 
projet. Nous avons téléchargé un ensemble de données 4 partir du site Kaggle, qui comprend 
des informations sur les caractéristiques des biens immobiliers et leurs prix de vente. Ces 

données constituent notre jeu de données principal sur lequel nous allons baser notre modéle. 


Prétraitement des données : 


Une fois que nous avons collecté les données, nous devons les prétraiter pour les rendre 
appropriées à l'apprentissage automatique. Cela inclut la manipulation des valeurs manquantes 
en les supprimant ou en les imputant, la normalisation des caractéristiques pour les mettre à la 
même échelle, et la conversion des variables catégorielles en variables numériques. Le 
prétraitement des données est une étape essentielle pour garantir la qualité et la performance 
de notre modèle. 


Exploration des données : 


Avant de construire notre modèle, il est important de comprendre les données en effectuant une 
exploration approfondie. Cela implique l'analyse des distributions des caractéristiques, 
l'identification des corrélations entre les variables, la détection des valeurs aberrantes, et 
l'extraction d'informations utiles qui pourraient influencer les prix des biens immobiliers. 


L'exploration des données nous permet d'obtenir des insights précieux pour la construction de 
notre modèle. 


Construction du modèle : 


Une fois les données prétraitées et explorées, nous pouvons passer 0 la construction de notre 
modèle de machine learning. Nous allons utiliser une approche basée sur l'apprentissage 
supervisé, en entraînant le modèle sur notre jeu de données d'entraînement. Nous explorerons 
différents algorithmes tels que la régression linéaire, les foréts aléatoires, ou les réseaux de 
neurones, et nous sélectionnerons le modèle le plus performant en termes de précision et de 
généralisation. 


Evaluation du modèle : 


Après avoir construit notre modèle, nous devons l'évaluer pour mesurer sa performance. Nous 
utiliserons des métriques telles que l'erreur quadratique moyenne (RMSE), le coefficient de 
détermination (R?), et l'erreur absolue moyenne (MAE) pour évaluer la précision de nos 
estimations. Nous comparerons également les prédictions du modèle avec les valeurs réelles des 
prix de vente pour évaluer sa robustesse. 


Optimisation du modèle : 


Si notre modèle ne donne pas des résultats satisfaisants, nous procéderons à son optimisation. 
Cela peut impliquer le réglage des hyperparamètres du modèle, l'ajout de nouvelles variables 
explicatives, ou l'utilisation de techniques avancées telles que la régularisation ou le feature 
engineering. L'objectif est d'améliorer la performance du modèle et d'obtenir des estimations 
plus précises. 


Interface utilisateur : 


En parallèle du développement du modèle, nous prévoyons de créer une interface utilisateur 
conviviale qui permettra aux utilisateurs d'interagir facilement avec notre plateforme 
d'estimation des prix des biens immobiliers. Cette interface intuitive leur permettra d'entrer les 
caractéristiques d'une propriété et d'obtenir une estimation instantanée du prix. 


En résumé, notre méthodologie générale comprend la collecte et le prétraitement des données, 
l'exploration approfondie, la construction et l'évaluation du modèle, l'optimisation si nécessaire, 
et le développement d'une interface utilisateur conviviale. Cette approche itérative nous 
permettra de créer un modèle précis et performant pour l'estimation des prix des biens 
immobiliers. 


Chapitre 2 : 
État de l’art et étude de l'existant 


Introduction : 


L'estimation des prix immobiliers est un domaine d'étude essentiel et complexe, ayant des 
implications majeures sur l'économie, les investissements immobiliers, les politiques de logement 
et les décisions individuelles en matière de logement. Grâce à l'essor des technologies Big Data 
et de l'apprentissage automatique, de nouvelles méthodes de prédiction des prix immobiliers ont 
été développées pour améliorer la précision et l'efficacité. 


Dans ce contexte, notre objectif est d'examiner et de comparer cinq études récentes sur ce sujet 


x Etude 1. "Big Data and Prediction: Understanding New York City's Real Estate Market” par 
Paul et al. (2021), 

x Etude 2. "Housing Price Prediction: A Comparison of Machine Learning Models” par Kaur et 
al. (2022), 

x Etude 3. "Predicting Real Estate Prices in Montreal: A Machine Learning Approach” par Li et 
al. (2022), 

* Etude 4. "Predicting House Prices: A Machine Learning Approach” par Chen et al. (2023), 

* Etude 5. "Real Estate Price Prediction with Regression and Classification” par Gao et al. 
(2023). 


Ces études ont été sélectionnées pour leur pertinence et leur utilisation de diverses méthodes de 
recherche et techniques d'apprentissage automatique. 


Notre analyse se concentrera sur plusieurs aspects clés de ces études : les méthodes de 
recherche, les approches traditionnelles, les techniques d'apprentissage automatique, 
l'utilisation de données géospatiales, les méthodes hybrides, l'évaluation des travaux précédents 
et leurs conclusions. 


L'objectif de cette analyse comparative est d'obtenir une meilleure compréhension des forces et 
faiblesses de ces approches, d'identifier les tendances actuelles et les meilleures pratiques dans 
le domaine de l'estimation des prix immobiliers, ce qui est crucial pour guider les futures 
recherches et développements dans ce domaine. 


Méthodes de recherche : 


Étude Méthodes de recherche 


Étude 1 Cette étude utilise principalement des modéles de régression 
linéaire, de foréts aléatoires et de boosting pour analyser et prédire 
les prix immobiliers à New York. Ils ont traité les données 
immobilières à grande échelle, d'où l'appellation "Big Data”. Ces 
méthodes ont permis une analyse efficace des tendances et des 
modèles de prix dans l'immobilier. 


Étude 2 L'auteur a mis en œuvre plusieurs modèles d'apprentissage 
automatique pour prédire les prix de l'immobilier, notamment les 
forêts aléatoires, les machines à vecteurs de support et le réseau 
neuronal. Il a aussi discuté de l'importance des variables 
indépendantes dans la prédiction des prix de l'immobilier. Ces 
méthodes ont permis une comparaison des performances des 
différents modèles. 


Étude 3 Cette étude a utilisé des techniques d'apprentissage automatique, 
spécifiquement le réseau neuronal et la régression linéaire, pour 


prédire les prix des propriétés. L'étude a utilisé ces techniques pour 
traiter un large éventail de facteurs influençant les prix immobiliers, 
tels que l'emplacement, la taille de la propriété, l'âge de la maison, 
etc. 


Étude 4 Cette étude a également utilisé des techniques d'apprentissage 
automatique pour prédire les prix des maisons. Les auteurs ont 
souligné l'importance de la sélection des caractéristiques pour 
améliorer la précision du modèle de prédiction. Ils ont utilisé un 
ensemble diversifié de caractéristiques de la maison pour former le 
modèle. 


Étude 5 Cette étude a utilisé à la fois des méthodes de régression et de 
classification pour prédire les prix immobiliers. Les auteurs ont 
travaillé avec un ensemble de caractéristiques pour prédire les prix, 
y compris la taille de la propriété, le nombre de chambres, 
l'emplacement, et d'autres caractéristiques pertinentes. Ils ont 
également exploré l'effet de ces caractéristiques sur la précision de 
la prédiction. 


Les approches traditionnelles عل‎ prédiction des prix immobiliers : 


Etude Les approches traditionnelles 


Etude 1 Bien que les auteurs n'aient pas explicitement mentionné les 
approches traditionnelles, la régression linéaire, une méthode 
utilisée dans cette étude, est une technique statistique 
traditionnelle utilisée pour prédire les prix de l'immobilier. C'est une 
approche qui établit une relation linéaire entre les variables 
indépendantes (caractéristiques de la propriété) et les variables 
dépendantes (prix). 


Etude 2 Encore une fois, l'approche traditionnelle de la régression linéaire a 
été utilisée dans cette étude. Les auteurs ont comparé cette 
approche avec des modéles plus modernes d'apprentissage 
automatique pour prédire les prix de l'immobilier. Ils ont discuté des 
limites des approches traditionnelles et de la fagon dont 
l'apprentissage automatique peut aider à surmonter ces défis. 


Étude 3 L'étude utilise la régression linéaire, une approche traditionnelle, en 
plus du réseau neuronal, une approche d'apprentissage 


automatique. La régression linéaire a été utilisée pour sa simplicité 
et sa facilité d'interprétation, tandis que le réseau neuronal a été 
utilisé pour sa capacité à modéliser des relations non linéaires plus 
complexes. 


Étude 4 Bien que l'étude n'ait pas explicitement discuté des approches 
traditionnelles, l'importance accordée à la sélection des 
caractéristiques suggère une reconnaissance des facteurs 
typiquement utilisés dans les approches traditionnelles. Les 
caractéristiques comme la taille, l'emplacement, l'âge de la maison, 
sont des facteurs couramment utilisés dans les évaluations 
traditionnelles des prix immobiliers. 


Étude 5 Cette étude a utilisé la régression, une approche traditionnelle, 
mais a également utilisé des techniques de classification pour 
prédire les prix immobiliers. Les caractéristiques sélectionnées pour 
ces modèles comprennent des facteurs typiquement utilisés dans 
les évaluations traditionnelles, comme la taille de la propriété, le 
nombre de chambres, et l'emplacement. 


Les techniques d'apprentissage automatique : 


Etude Les techniques d'apprentissage automatique 


Etude 1 Cette étude utilise une combinaison de techniques d'apprentissage 
automatique, dont la régression linéaire, les foréts aléatoires et le 
boosting. 


Ces méthodes ont été choisies pour leur capacité à modéliser et à 
prédire des données complexes et à grande échelle. L'utilisation du 
boosting, une méthode qui optimise la précision du modèle, est 
particulièrement notable dans cette étude. 


Étude 2 Les auteurs ont comparé plusieurs techniques d'apprentissage 
automatique, y compris les forêts aléatoires, les machines à 
vecteurs de support (SVM) et le réseau neuronal. 


Chacune de ces techniques a ses avantages et ses limites, et l'étude 
a offert une comparaison détaillée de leurs performances en termes 
de prédiction des prix immobiliers. 


Étude 3 Cette étude utilise principalement le réseau neuronal et la 
régression linéaire comme techniques d'apprentissage 
automatique. Le réseau neuronal est connu pour sa capacité à 
modéliser des relations non linéaires complexes, ce qui le rend 
particulièrement utile pour les problèmes de prédiction qui 
impliquent un grand nombre de facteurs interdépendants 


Étude 4 Bien que les techniques spécifiques d'apprentissage automatique 
ne soient pas explicitement mentionnées dans cette étude, l'accent 
est mis sur l'importance de la sélection des caractéristiques pour 
améliorer la précision du modèle de prédiction. 


Cela suggère l'utilisation de techniques capables de gérer un grand 
nombre de caractéristiques et d'évaluer leur importance. 


Étude 5 Dans cette étude, les auteurs utilisent à la fois des techniques de 
régression et de classification pour prédire les prix immobiliers. Ils 
ont exploré comment ces techniques peuvent être utilisées 
ensemble pour créer un modèle de prédiction plus précis et robuste. 


Ils ont également examiné comment différentes caractéristiques 
influencent la précision de la prédiction. 


Les méthodes hybrides : 


Etude Les méthodes hybrides 


Etude 1 Cette étude utilise une combinaison de techniques d'apprentissage 
automatique, y compris la régression linéaire, les foréts aléatoires 
et le boosting. Cela pourrait étre considéré comme une approche 
hybride dans la mesure ou plusieurs techniques d'apprentissage 
automatique sont utilisées conjointement pour modéliser et prédire 
les prix immobiliers. Ils ont choisi ces méthodes pour leur capacité a 
gérer efficacement les données á grande échelle. 


Etude 2 Cette étude compare plusieurs techniques d'apprentissage 
automatique, y compris les foréts aléatoires, les machines a 
vecteurs de support et le réseau neuronal. 


Bien qu'il ne s'agisse pas d'une méthode hybride á proprement 
parler (ou les techniques sont utilisées conjointement dans un méme 
modèle), l'étude offre une perspective sur comment différentes 
techniques pourraient étre utilisées ensemble ou comparées pour 
améliorer la précision de la prédiction des prix immobiliers. 


Étude 3 Cette étude utilise à la fois le réseau neuronal et la régression 
linéaire pour prédire les prix des propriétés. 


Cette combinaison de techniques d'apprentissage automatique 
peut étre considérée comme une approche hybride. La régression 
linéaire est une technique d'apprentissage automatique simple, 
tandis que le réseau neuronal est capable de modéliser des 
relations plus complexes. 


Étude 4 Bien que l'étude n'entre pas dans les détails des techniques 
spécifiques d'apprentissage automatique utilisées, l'accent mis sur 
la sélection des caractéristiques suggère une approche intégrative 
qui pourrait être considérée comme hybride. 


Cela suggère que le modèle pourrait utiliser une combinaison de 
techniques d'apprentissage automatique pour évaluer l'importance 
de différentes caractéristiques et pour prédire les prix immobiliers. 


Étude 5 Cette étude utilise à la fois des techniques de régression et de 
classification pour prédire les prix immobiliers. C'est une approche 
hybride dans la mesure où elle combine ces deux types de 
techniques d'apprentissage automatique pour créer un modèle de 
prédiction. L'étude explore comment ces deux techniques peuvent 
être utilisées conjointement pour améliorer la précision des 
prédictions. 


Les évaluations des travaux existants : 


Etude Les évaluations des travaux existants 


Etude 1 Bien que l'étude n'ait pas explicitement évalué d'autres travaux 
dans le domaine, elle se positionne dans le contexte des approches 
existantes d'utilisation des big data pour la prédiction des prix 
immobiliers. 


Elle met en avant l'utilisation de techniques d'apprentissage 
automatique, comme la régression linéaire, les forêts aléatoires et 
le boosting, qui ont été largement utilisées dans des travaux 
précédents. 


Étude 2 Cette étude se situe dans le contexte d'autres recherches qui ont 
utilisé des techniques d'apprentissage automatique pour prédire les 
prix immobiliers. Elle compare plusieurs de ces techniques, y 
compris les forêts aléatoires, les machines à vecteurs de support et 
le réseau neuronal, en soulignant leurs forces et leurs faiblesses 
respectives. L'évaluation est donc indirecte, à travers la 
comparaison et l'analyse de ces techniques d'apprentissage 
automatique. 


Étude 3 Cette étude ne fait pas directement référence à d'autres travaux de 
recherche, mais s'inscrit dans le contexte de l'utilisation des 


techniques d'apprentissage automatique pour la prédiction des prix 
immobiliers. 


Elle met l'accent sur l'utilisation du réseau neuronal et de la 
régression linéaire, qui ont été utilisés dans des travaux précédents 
pour prédire les prix immobiliers. 


Étude 4 Cette étude ne fournit pas d'évaluation explicite des travaux 
antérieurs. Cependant, elle souligne l'importance de la sélection des 
caractéristiques pour la prédiction des prix immobiliers, ce qui 
suggère une reconnaissance des contributions antérieures dans ce 
domaine. 


Elle met l'accent sur l'importance de comprendre comment 
différentes caractéristiques peuvent influencer les prix immobiliers. 


Étude 5 Cette étude s'inscrit dans le contexte de l'utilisation de techniques 
de régression et de classification pour la prédiction des prix 
immobiliers. Elle ne fournit pas d'évaluation explicite des travaux 
antérieurs, mais propose une approche qui combine ces deux types 
de techniques d'apprentissage automatique. 


Cela suggére une reconnaissance de l'utilité et des forces de ces 


deux approches, qui ont été utilisées dans des travaux antérieurs. 


Conclusion 


Cette étude conclut que les techniques d'apprentissage 
automatique, en particulier la régression linéaire, les foréts 
aléatoires et le boosting, peuvent étre efficacement utilisées pour 
prédire les prix immobiliers á New York. Elle souligne également 
l'importance d'utiliser de grandes quantités de données pour 
améliorer la précision des prédictions. 


L'étude conclut qu'il n'y a pas de "meilleur" modèle d'apprentissage 
automatique pour la prédiction des prix immobiliers, car la 
performance de chaque modèle peut varier en fonction des 
spécificités des données. Cependant, elle souligne que la 
comparaison de plusieurs modèles peut aider à identifier le plus 
approprié pour un ensemble de données particulier. 


L'étude conclut que le réseau neuronal et la régression linéaire 
peuvent être efficacement utilisés pour prédire les prix immobiliers 


à Montréal. Elle souligne aussi l'importance d'ajuster les modèles en 
fonction des spécificités des données et du marché immobilier pour 
améliorer la précision des prédictions. 


L'étude met l'accent sur l'importance de la sélection des 
caractéristiques pour la prédiction des prix immobiliers. Elle conclut 
que, indépendamment de la technique d'apprentissage 
automatique utilisée, une sélection efficace des caractéristiques 
peut grandement améliorer la précision du modèle de prédiction. 


Cette étude conclut que l'utilisation conjointe de techniques de 
régression et de classification peut améliorer la précision de la 
prédiction des prix immobiliers. Elle souligne également 
l'importance d'explorer comment différentes caractéristiques 
influencent les prédictions et de prendre en compte ces 
informations lors de la construction de modèles de prédiction. 


Conclusions : 


Étude 


Étude 1 


Étude 2 


Étude 3 


Étude 4 


Étude 5 


Conclusions générale : 


L'estimation des prix immobiliers est un domaine d'étude essentiel et complexe, ayant des 
implications majeures sur l'économie, les investissements immobiliers, les politiques de logement 
et les décisions individuelles en matière de logement. Grâce à l'essor des technologies Big Data 
et de l'apprentissage automatique, de nouvelles méthodes de prédiction des prix immobiliers ont 
été développées pour améliorer la précision et l'efficacité. 


Dans ce contexte, notre objectif est d'examiner et de comparer cinq études récentes sur ce sujet, 
sélectionnées pour leur pertinence et leur utilisation de diverses méthodes de recherche et 
techniques d'apprentissage automatique. Notre analyse se concentrera sur plusieurs aspects 
clés de ces études : les méthodes de recherche, les approches traditionnelles, les techniques 
d'apprentissage automatique, l'utilisation de données géospatiales, les méthodes hybrides, 
l'évaluation des travaux précédents et leurs conclusions. 


L'objectif de cette analyse comparative est d'obtenir une meilleure compréhension des forces et 
faiblesses de ces approches, d'identifier les tendances actuelles et les meilleures pratiques dans 
le domaine de l'estimation des prix immobiliers, ce qui est crucial pour guider les futures 
recherches et développements dans ce domaine. 
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Chapitre 3 : 
Approche proposée pour résoudre le 


problème posé dans ce PFE 


Introduction : 


Ce chapitre présente en détail l'approche que nous avons proposée pour estimer les prix des 
biens immobiliers à l'aide du machine learning. Nous aborderons les différentes étapes de notre 
approche, du prétraitement des données à la validation du modèle. Nous expliquerons 
également les choix que nous avons faits en ce qui concerne les modèles de machine learning et 
les outils utilisés. Ce chapitre vise à fournir une compréhension claire et concise de notre 
approche, en mettant l'accent sur les aspects techniques pertinents tout en restant accessible 
aux non-experts. 


Nous commencerons par décrire le processus de prétraitement des données, qui comprend le 
nettoyage, le traitement et la préparation des données pour le modèle de machine learning 
(section 3.1). Ensuite, nous expliquerons le choix du modèle de machine learning que nous avons 
utilisé et les raisons de ce choix (section 3.2). Nous détaillerons ensuite la procédure 
d'entraînement du modèle, y compris la division des données en ensembles de formation, de 
validation et de test (section 3.3). Enfin, nous décrirons comment nous avons validé le modèle et 
les mesures d'évaluation que nous avons utilisées (section 3.4). 


Ce chapitre permettra aux lecteurs de comprendre notre approche dans les moindres détails, en 
soulignant les différentes étapes que nous avons suivies pour estimer les prix des biens 
immobiliers à l'aide du machine learning. Nous mettrons en évidence les choix que nous avons 
faits et les considérations que nous avons prises en compte tout au long du processus. Les 
résultats obtenus seront discutés dans le chapitre suivant, ce qui permettra de mieux apprécier 
l'efficacité de notre approche par rapport aux autres méthodes existantes. 


Description des sources de données utilisées : 


Pour cette étape de collecte de données, nous avons utilisé un ensemble de données disponible 
sur Kaggle intitulé "2 million rows of data on homes for sale” (2 millions de lignes de données sur 
les maisons à vendre). Le lien vers la dataset est le suivant : 
https://www.kaggle.com/datasets/msorondo/argentina-venta-de-propiedades. 


Ce jeu de données contient des informations sur les maisons à vendre en Argentine. Il comprend 
2 millions de lignes de données, ce qui en fait une source riche pour notre étude. 


2 million rows of data on homes for sale 
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figure xx : description des sources de données utilisées. 
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Section 3-1 : Exploration des données 


Etape 1: Compréhension des types de données 


Cette étape consiste a examiner les types de données de chaque colonne du jeu de 
données. Cela permet de savoir quelles informations sont stockées dans chaque colonne, 
telles que des nombres entiers, des nombres décimaux, des chaines de caractéres ou des 
dates. Cela est important pour déterminer quelles opérations peuvent étre effectuées sur 
les données et quelles transformations pourraient étre nécessaires. 
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object 
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figure xx : compréhension des types de données. 


Etape 2 : Informations sur les données et les valeurs manquantes 


Cette étape fournit des informations détaillées sur les types de données présents dans le 
jeu de données, ainsi que sur la présence de valeurs manquantes. Les informations 
fournies peuvent inclure le nombre total d'entrées dans chaque colonne, le nombre de 
valeurs non nulles, les types de données, etc. Cela permet d'avoir une vision globale des 
données et de repérer les colonnes contenant des valeurs manquantes. 
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figure xx : informations sur les données et les valeurs manquantes. 


Etape 3: Nombre de valeurs uniques par colonne 


Cette étape permet de compter le nombre de valeurs uniques présentes dans chaque 
colonne du jeu de données. 


Cela permet de comprendre la variabilité des données et d'identifier les colonnes qui 
pourraient avoir des valeurs répétées ou des catégories distinctes. 


nunique 


figure xx : nombre de valeurs uniques par colonne. 


Étape 4 : Analyse des valeurs manquantes 


Cette étape consiste à évaluer la présence de valeurs manquantes dans le jeu de 
données. En calculant le pourcentage de valeurs manquantes par colonne, on peut 
déterminer l'ampleur du problème des données manquantes. 


Cela aide à prendre des décisions sur la façon de traiter ces valeurs manquantes, que ce 
soit en les supprimant, en les remplaçant par des estimations ou en appliquant d'autres 
techniques de gestion des valeurs manquantes. 


values_percentage[miss 


figure xx : analyse des valeurs manquantes. 


Étape 5 : Résumé statistique des colonnes 


Cette étape fournit un apercu statistique des colonnes numériques du jeu de données, 
telles que la moyenne, l'écart-type, les valeurs minimales et maximales, ainsi que les 
quartiles. 


Cela permet de comprendre la distribution des données, d'identifier les valeurs 
aberrantes potentielles et d’obtenir des informations générales sur les caractéristiques 
des variables numériques. 
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count 0 
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figure xx : resumé statistique des colonnes. 


Section 3-2 : Prétraitement des données. 


La phase de prétraitement des données est une étape essentielle dans le processus d'analyse 
des données. Elle vise 4 préparer les données brutes en les nettoyant, les transformant et les 
organisant de manière à faciliter leur utilisation ultérieure. Le prétraitement des données permet 
d'améliorer la qualité, la cohérence et la fiabilité des données, tout en réduisant les biais 
potentiels et en maximisant la performance des modéles d'analyse. 


Dans cette section, nous avons effectué plusieurs étapes clés de prétraitement des données 
pour notre ensemble de données. Nous avons commencé par la suppression des attributs 
inutiles, éliminant ainsi les colonnes qui ne sont pas pertinentes pour notre analyse spécifique. 
Ensuite, nous avons analysé et traité les valeurs manquantes en utilisant différentes techniques 
telles que l'imputation par la médiane et des imputations spécifiques en fonction des types de 
propriétés. 


Nous avons également traité les valeurs aberrantes, transformé les données catégorielles en 
formats appropriés, et créé de nouvelles caractéristiques à partir de l'emplacement pour enrichir 
notre ensemble de données. Ces étapes nous ont permis de préparer les données de manière 
optimale, afin d'obtenir des résultats plus fiables et significatifs lors de l'analyse ultérieure. 


En somme, le prétraitement des données joue un róle crucial dans la préparation des données 
pour l'analyse et la modélisation. Il permet d'optimiser la qualité des données, d'améliorer la 
performance des modèles et de faciliter l'interprétation des résultats. Les étapes de 
prétraitement que nous avons réalisées dans cette section ont contribué à rendre nos données 
plus adaptées à l'analyse et à nous fournir une base solide pour explorer et tirer des insights 
significatifs de notre ensemble de données. 
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figure xx : prétraitement des données. 


3-2-1. Suppression des attributs inutiles : 


D'après l'analyse des pourcentages de valeurs manquantes dans notre ensemble de données et 
en tenant compte de nos objectifs de modélisation, nous avons pris les décisions suivantes 
concernant la suppression d'attributs : 


> id’ et ad Hype“: L'attribut ‘id’ ne fournit pas d'informations significatives pour notre 
táche de modélisation, tandis que 'ad_type' contient une seule valeur pour 
l'ensemble des données, ce qui le rend inutile pour notre analyse. 

> Les attributs 14’, '15' et H ont été supprimés en raison de leur forte proportion de 
valeurs manquantes (respectivement 76.0504%, 99.4999% et 100.0000%). Leur 
présence limitée en termes de données disponibles ne justifiait pas leur inclusion 
dans notre modèle. 

> Malgré le faible pourcentage de valeurs manquantes pour ‘description’ et ‘title’, nous 
avons décidé de les supprimer également. Leur analyse nécessiterait des techniques 
plus complexes, telles que le traitement du langage naturel (NLP), ce qui 
augmenterait la complexité de notre modéle. Étant donné que nous disposons déja 
des informations nécessaires pour la construction du modéle, cette suppression nous 
permettra de nous concentrer sur d'autres attributs plus pertinents. 

> L'attribut price period a été supprimé, car notre objectif principal se concentre sur 
le prix lui-méme. Les informations de période de prix ne sont pas nécessaires pour 
notre analyse. 

> Les attributs de date tels que 'start_date’, 'end_date' et created on ont été 
supprimés, car notre objectif ne dépend pas de la temporalité des données. 


En utilisant la méthode drop sur le DataFrame, nous avons supprimé les colonnes 
indésirables, ce qui a réduit la dimensionnalité des données et facilité la manipulation des 
attributs restants. Cette décision de suppression des attributs visait à simplifier notre modèle, à 
nous concentrer sur les attributs les plus pertinents et à réduire la complexité de l'analyse, tout 
en préservant les informations essentielles nécessaires à notre tâche de modélisation. 


Après avoir affiché les informations mises à jour du DataFrame, nous avons confirmé que les 
colonnes sélectionnées ont été effectivement supprimées, garantissant ainsi que le DataFrame 
ne contient désormais que les attributs pertinents pour la suite de l'analyse. 


figure xx : analyse des valeurs manquantes. 


3-2-2: Analyse des autres valeurs manquantes : 


Dans cette étape, nous nous concentrons sur un sous-ensemble spécifique de variables qui 
présentent des valeurs manquantes. Ces variables comprennent ‘lat’, ‘lon’, ‘rooms’, 'bedrooms', 
‘bathrooms’, 'surface_total' et 'surface_covered'. 


En utilisant la méthode 'describe() sur le DataFrame 'data_cleaned' avec uniquement ces 
colonnes sélectionnées, nous obtenons un résumé statistique de ces variables. Cela nous permet 
d'avoir un aperçu des statistiques clés telles que la moyenne, l'écart-type, les valeurs minimales 
et maximales, ainsi que les quartiles pour chaque variable. 


L'analyse de ces variables nous aide à mieux comprendre la distribution et les caractéristiques 
des données manquantes. Cela nous donne également des informations sur la plage de valeurs 
possibles, ce qui peut être utile lors de la prise de décisions sur les méthodes d'imputation 
appropriées pour remplir les valeurs manquantes. 


Cette étape est importante pour cibler spécifiquement les variables avec des valeurs 
manquantes et obtenir des informations statistiques détaillées sur ces variables, afin de guider 
les prochaines étapes de prétraitement des données. 
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std 69 2.40 
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25% -58.75 2.00 0 0 45.00 
50% 
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figure xx : analyse des autres valeurs manquantes. 


3-2-3 : Analyse de la corrélation entre les attributs qui contiennent des valeurs manquantes 


Dans cette étape, nous nous sommes concentrés sur l'analyse de la corrélation entre les attributs 
qui contiennent des valeurs manquantes. Tout d'abord, nous avons sélectionné les colonnes 
numériques à partir du DataFrame prétraité 'data_cleaned' en utilisant la méthode 
'select_dtypes’ avec l'argument 'include=['floaté4']. Cela nous a permis de filtrer les attributs 
numériques sur lesquels nous voulions effectuer l'analyse de corrélation. 


Ensuite, nous avons calculé la matrice de corrélation en utilisant la méthode 'corr() sur les 
colonnes numériques sélectionnées. Cette matrice de corrélation mesure la force et la direction 
des relations linéaires entre les paires d'attributs. Les valeurs de corrélation varient de -1 à 1, où 
-1 indique une corrélation négative parfaite, 1 indique une corrélation positive parfaite et O 
indique l'absence de corrélation linéaire. 


Pour visualiser la corrélation, nous avons créé une heatmap en utilisant la bibliothèque Seaborn. 
La heatmap affiche les coefficients de corrélation sous forme de couleurs, où les valeurs plus 
élevées sont représentées par des couleurs plus chaudes et les valeurs plus faibles par des 
couleurs plus froides. L'argument 'annot=True' nous a permis d'afficher les valeurs de corrélation 
sur la heatmap pour une meilleure compréhension. 


L'analyse de la heatmap de corrélation nous a permis d'identifier les paires d'attributs qui 
présentent des corrélations élevées ou négatives. Cela nous aide à comprendre les relations 
entre les attributs contenant des valeurs manquantes et peut influencer notre prise de décision 
pour le traitement des valeurs manquantes et les futures étapes d'analyse des données. 
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figure xx : heatmap de corrélation. 


3-2-4 : Imputation stratégique des valeurs manquantes 


nous nous concentrons maintenant sur les attributs restants qui contiennent des valeurs 
manquantes, mais sont pertinents pour notre objectif de modélisation. Ces attributs nécessitent 
un traitement approprié pour garantir des données complètes et de qualité pour notre modèle. 


figure xx: Imputation stratégique des valeurs manquantes. 


Imputation par la médiane pour les attributs de localisation 


Dans cette étape, nous avons utilisé l'imputation par la médiane pour remplir les valeurs 
manquantes des attributs de localisation, ‘lat’ (latitude) et ‘lon’ (longitude). Les valeurs 
manquantes ont été remplacées par la médiane des valeurs existantes pour chaque 
attribut respectif. 


Après l'imputation, nous avons vérifié les informations mises à jour du DataFrame 
'data_cleaned' pour confirmer que les valeurs manquantes ont été traitées. 
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figure xx : Imputation par la médiane pour les attributs de localisation. 


Imputation spécifique au type de propriété pour rooms, 'bedrooms', et 'bathrooms' 
Dans cette étape, nous avons réalisé une imputation spécifique au type de propriété pour 
les attributs 'rooms' (nombre de piéces), 'bedrooms' (nombre de chambres) et 'bathrooms' 
(nombre de salles de bain). 


Nous avons identifié deux groupes de types de propriétés : ceux pour lesquels ces 
attributs sont susceptibles d'étre nuls ou égaux á zéro, et ceux pour lesquels une valeur 
médiane non nulle est plus appropriée. 


Pour les types de propriétés tels que 'Cochera’, 'Depósito', Local comercial’, ‘Lote’, 
‘Oficina’ et ‘Otro’, nous avons remplacé les valeurs manquantes par zéro. 


Pour les types de propriétés tels que ‘Casa’, ‘Departamento’, 'Casa de campo’ et 'PH', nous 
avons remplacé les valeurs manquantes par la médiane des valeurs existantes pour ces 
types de propriétés. 


Ensuite, nous avons converti les colonnes ‘rooms’, ‘bedrooms’ et 'bathrooms' en entiers, 
car ces attributs représentent des quantités entiéres. 

Cela permet de remplir les valeurs manquantes de maniére spécifique au type de 
propriété, en prenant en compte les caractéristiques de chaque type. Cela garantit une 
imputation plus précise et cohérente dans notre ensemble de données. 


13 rooms bedrooms bathrooms surface_total surface_covered price currency property_type operation_type 
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figure xx : conversion des colonnes [rooms, ‘bedrooms’, bathrooms] en entiers 


Imputation spécifique au type de propriété pour surface total, et surface covered 


Dans cette étape, nous avons effectué une imputation spécifique au type de propriété 
pour les attributs 'surface_total' (surface totale) et surface covered (surface couverte). 


Nous avons d'abord affiché le nombre de valeurs manquantes de 'surface_total' pour 
chaque type de propriété afin de comprendre la distribution des valeurs manquantes. 
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figure xx : le nombre de valeurs manquantes de 'surface_total' pour chaque type de propriété 


Ensuite, nous avons calculé le nombre total d'entrées pour chaque type de propriété et estimé la 


proportion de valeurs manquantes par rapport au total pour chaque type. 
Nous avons créé des colonnes d'indicateur pour enregistrer ناه‎ l'imputation a été effectuée. 
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figure xx : création des colonnes d'indicateur pour enregistrer où l'imputation a été effectuée. 


Pour chaque type de propriété, nous avons imputé les valeurs manquantes de 'surface_total' en 
utilisant la médiane des valeurs existantes pour ce type de propriété. 


Si des valeurs manquantes subsistaient pour surface covered après la première imputation, 
nous les avons imputées en utilisant les valeurs imputées de 'surface_total'. 


Cela nous permet de remplir les valeurs manquantes de maniére spécifique au type de 
propriété, en utilisant des estimations appropriées basées sur les données existantes. 


figure xx : création des colonnes d'indicateur pour enregistrer ناه‎ l'imputation a été effectuée. 


3-2-5 : Traitement des valeurs négatives 


Dans cette étape de traitement des valeurs négatives, nous avons pris des mesures pour 
identifier et résoudre les problèmes liés à ces valeurs indésirables. Voici une description détaillée 
des actions entreprises 


Tout d'abord, nous avons effectué un comptage des valeurs négatives pour chaque attribut 
pertinent. Cela nous a permis d'avoir une vision claire de l'ampleur du problème. Nous avons 
obtenu le nombre de valeurs négatives pour les attributs ‘rooms’, ‘bedrooms’, bathrooms, 
'surface_total' et 'surface_covered'. Cette étape est cruciale pour comprendre l'étendue des 
valeurs indésirables présentes dans le jeu de données. 


figure xx : comptage des valeurs négatives pour chaque attribut pertinent. 


Ensuite, nous avons procédé a la suppression des entrées contenant des valeurs négatives. Nous 
avons filtré le DataFrame en ne conservant que les lignes où les attributs ‘bedrooms’, 
'surface_total' et "surface_covered' sont supérieurs ou égaux à zéro. Cela a permis d'éliminer les 
enregistrements invalides qui pourraient fausser les analyses ultérieures. 

Après avoir effectué la suppression des valeurs négatives, nous avons répété l'étape de 
comptage des valeurs négatives pour vérifier l'efficacité de notre traitement. Cette vérification 
supplémentaire nous a permis de confirmer que les valeurs négatives ont été correctement 
traitées et éliminées. 


figure xx : comptage des valeurs négatives pour chaque attribut pertinent. 


Enfin, nous avons affiché un résumé statistique des attributs numériques pour s'assurer que les 
valeurs négatives ont été correctement traitées. Cela nous a permis de vérifier que les mesures 
prises ont été efficaces et que les attributs concernés ne contiennent plus de valeurs négatives 


indésirables. 
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figure xx : resumé statistique des attributs numériques. 


3-2-6: Transformation des données catégorielles 


La transformation des données catégorielles revét une importance particuliére. Nous allons 
explorer les différentes étapes de la transformation des données catégorielles que nous avons 
réalisées. Chaque étape vise á convertir les attributs catégoriels en une représentation 
numérique adaptée, permettant ainsi d'extraire des informations précieuses pour notre étude. 


Comptage et visualisation des types d'opérations : 


Nous commençons par compter le nombre d'occurrences de chaque valeur dans l'attribut 
"operation_type”. Cette étape nous permet de comprendre la répartition des types 
d'opérations immobiliéres. En utilisant ces données, nous créons un diagramme á barres 
qui visualise la distribution des opérations, offrant ainsi une vue d'ensemble claire de 
notre ensemble de données. 
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figure xx : comptage et visualisation des types d'opérations. 


Filtrage des données par type d'opération et devise 


Afin de se concentrer uniquement sur les opérations de vente, nous filtrons nos données 
en ne conservant que les entrées correspondant au type d'opération "venta". Par la suite, 
nous supprimons la colonne "operation_type” de notre jeu de données. De plus, nous 
effectuons un comptage des occurrences de chaque valeur dans l'attribut "currency" pour 
comprendre la répartition des devises utilisées dans les opérations immobiliéres. Nous 
visualisons ensuite cette répartition à l'aide d'un diagramme à barres. 


aned = data_cleaned{[data_cleaned 


aned = data_cleaned.drop(colum 


figure xx : Filtrage des données par type d'opération et devise (1). 


Distribution of Currency 
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figure xx : Filtrage des données par type d'opération et devise (2). 


Filtrage des données par devise et suppression de la colonne 


Pour une analyse spécifique, nous nous concentrons uniquement sur les opérations 
effectuées en USD. Ainsi, nous filtrons nos données en ne conservant que les valeurs 
associées à la devise USD. La colonne "currency" est ensuite supprimée de notre jeu de 
données. Enfin, nous fournissons des informations détaillées sur les types de données et 
les valeurs manquantes après ces transformations. 


figure xx : Filtrage des données par devise et suppression de la colonne. 


Visualisation des catégories principales de subdivision géographique 


Nous procédons à un comptage des occurrences de chaque valeur dans l'attribut "11", qui 
représente les subdivisions géographiques. Cette étape nous permet de comprendre la 
répartition des biens immobiliers par subdivision géographique. À l'aide d'un diagramme 
à barres, nous visualisons cette répartition pour une meilleure compréhension. 
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figure xx : Visualisation des catégories principales de subdivision géographique. 


Filtrage des données par subdivision géographique et suppression de la colonne 


Dans notre analyse, nous nous concentrons spécifiquement sur les biens immobiliers 
situés en Argentine. Ainsi, nous filtrons nos données en ne conservant que les valeurs 
associées à "Argentina" dans l'attribut "l1". Ensuite, nous supprimons la colonne "l1" de 
notre jeu de données. Comme précédemment, nous fournissons des informations 
détaillées sur les types de données et les valeurs manquantes après ces transformations. 


figure xx : Filtrage des données par subdivision géographique et suppression de la colonne (1). 


figure xx : Filtrage des données par subdivision géographique et suppression de la colonne (2). 


Comptage des catégories de subdivision géographique 


À ce stade, nous effectuons un comptage des occurrences de chaque catégorie dans 
l'attribut "12", qui représente une subdivision plus détaillée de la géographie. Cela nous 
aide à comprendre la répartition des biens immobiliers selon ces catégories. 


figure xx : Comptage des catégories de subdivision géographique. 


Visualisation des catégories de subdivision géographique 


Nous utilisons les résultats obtenus précédemment pour créer un diagramme à barres qui 
illustre visuellement la répartition des biens immobiliers par catégorie de subdivision 
géographique. Cette visualisation permet d'appréhender rapidement les principales 
tendances et concentrations géographiques. 
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figure xx : Visualisation des catégories de subdivision géographique. 


Identification des catégories principales et regroupement des autres 


Nous identifions les catégories principales dans l'attribut "12" et regroupons les autres 
catégories dans une catégorie "Autres". À l'aide d'un nouveau diagramme à barres, nous 
visualisons la répartition des annonces immobilières en utilisant ces catégories 
regroupées. 


figure xx : Identification des catégories principales et regroupement des autres (1). 
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figure xx : Identification des catégories principales et regroupement des autres (1). 


Encodage one-hot des catégories de subdivision géographique 


Pour préparer nos données à l'analyse, nous effectuons l'encodage one-hot des 
catégories de l'attribut "12". Cela nous permet de créer de nouvelles colonnes encodées 
représentant chaque catégorie, prêtes à être utilisées dans notre analyse. 


13 rooms bedrooms bathrooms surface total surface_covered price property_type surface_covered_imputed 


figure xx : Encodage one-hot des catégories de subdivision géographique. 


Comptage des classes dans l'attribut "13" 


Nous comptons le nombre d'occurrences de chaque classe dans l'attribut "13", qui 
représente des informations supplémentaires sur l'adresse des biens immobiliers. 


figure xx : Comptage des classes dans l'attribut "13". 


Visualisation des classes les plus fréquentes 


En nous concentrant sur les classes les plus fréquentes de l'attribut "13", nous créons un 
diagramme à barres pour visualiser ces classes. Cela nous permet de comprendre les 
adresses les plus courantes dans notre ensemble de données. 
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figure xx : Visualisation des classes les plus fréquentes. 


Suppression de l'attribut "13" 


Pour notre analyse spécifique, nous supprimons l'attribut "13" de notre jeu de données. Les 
informations sur les types de données et les valeurs manquantes sont fournies aprés cette 
suppression. 


figure xx : Suppression de l'attribut "13". 


Comptage des types de propriété 


Nous comptons le nombre d'occurrences de chaque valeur dans l'attribut 
"property_type", qui représente les différents types de propriétés immobilières. 


figure xx : Comptage des types de propriété (1). 
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figure xx : Comptage des types de propriété (2). 


Encodage one-hot des types de propriété 


Nous effectuons l'encodage one-hot des types de propriété, créant ainsi de nouvelles 
colonnes encodées pour chaque catégorie de l'attribut "property_type”. 
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figure xx : Comptage des types de propriété (2). 


Informations finales sur les données 


Enfin, nous fournissons des informations finales sur les types de données et les valeurs 
manquantes dans notre jeu de données après toutes les transformations réalisées. 
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figure xx : Comptage des types de propriété. 


Conclusion 
La transformation des données catégorielles est une étape essentielle du prétraitement 
des données immobilières. Grâce à cette transformation, nous avons pu convertir les 
attributs catégoriels en une représentation numérique appropriée pour l'analyse. Cela 
nous permet d'extraire des informations pertinentes sur les types d'opérations, les 
devises, les subdivisions géographiques, les classes d'adresses et les types de propriété. 
Ces informations prétraitées nous fournissent une base solide pour mener des analyses 
plus approfondies et prendre des décisions éclairées dans le domaine de l'immobilier. 


3-2-6 : Détection et gestion des valeurs aberrantes (Outliers) 


Section 3-2 : Choix du modèle de machine learning 


Dans cette partie du rapport, nous clarifions notre méthode de choix des modèles 
d'apprentissage automatique destinés à estimer les prix des biens immobiliers. Suite à une 
analyse approfondie des techniques de régression habituellement employées, nous avons retenu 
quatre modèles pour des tests plus détaillés : la Régression Linéaire, la Forêt Aléatoire, XGBoost 
et l'Arbre de Décision. Pour chaque modèle, nous donnons une brève présentation et expliquons 
pourquoi nous l'avons sélectionné pour une exploration plus poussée : 


Régression Linéaire : En raison de sa simplicité et de son efficacité dans la modélisation des 
relations linéaires entre les variables, la Régression Linéaire a été choisie comme point de 
départ pour notre problème de prédiction. Ce modèle pourrait donner une première 
approximation des relations entre les caractéristiques des biens immobiliers et leur prix. 


Forêt Aléatoire : La Forêt Aléatoire, qui combine plusieurs arbres de décision pour créer un 
modèle plus robuste, est particulièrement efficace pour gérer un grand nombre de 
caractéristiques et des relations non linéaires. Sa résilience face aux valeurs aberrantes et sa 
capacité à modéliser des relations complexes pourraient s'avérer précieuses pour notre tâche. 


XGBoost : L'algorithme XGBoost est un algorithme de gradient boosting efficace et réputé pour 
sa rapidité. Il est capable de capturer des relations non linéaires et complexes entre les 
variables, ce qui pourrait être crucial pour prédire les prix des biens immobiliers. 


Arbre de Décision : L'Arbre de Décision, avec sa simplicité et son caractère explicatif, peut-être 
un bon modèle de référence pour comprendre les relations entre les caractéristiques des biens 
immobiliers et leur prix. 


Ces modèles seront entraînés et testés sur notre vaste ensemble de données contenant 676889 
entrées. Les performances des modèles seront évaluées et comparées pour déterminer le 
modèle le plus adapté à notre problème. Les détails concernant les métriques de performance 
utilisées et le processus d'évaluation seront discutés dans les sections suivantes du rapport. 


Section 3-3 : Processus d'entraînement et d'évaluation des modèles 


Dans cette partie du rapport, nous examinerons le processus d'entraînement et d'évaluation des 
modèles que nous avons sélectionnés pour prédire les prix de l'immobilier. L'objectif est 
d'expliquer comment les modèles ont été préparés pour faire des prédictions et comment leurs 
performances ont été évaluées. Nous aborderons spécifiquement la division de l'ensemble de 
données, l'entraînement des modèles et l'évaluation des modèles. 


3-3.1 Division de l'ensemble de données : 


Pour que nos modèles d'apprentissage automatique puissent être formés et testés 
correctement, il a été nécessaire de diviser notre ensemble de données en sous-ensembles 
d'entraînement et de test. Cette division a été réalisée en attribuant aléatoirement 80% des 
données à l'entraînement et 20% à l'évaluation des modèles. 


3-3.2 Entraînement des modèles : 

Une fois la division des données effectuée, nous avons formé nos modèles d'apprentissage 
automatique. Cela a été fait sur chaque modèle (Régression linéaire, Forêt aléatoire, XGBoost et 
Arbre de décision) en utilisant l'ensemble d'entraînement. L'entraînement de chaque modèle a 
été réalisé en ajustant ses paramètres pour minimiser l'erreur entre les prédictions du modèle et 
les vraies valeurs des prix. 


3-3.3 Évaluation des modèles : 

L'entraînement a été suivi d'une évaluation des modèles sur l'ensemble de test. Cette évaluation 
nous a permis de comparer la performance des différents modèles en termes de prédiction de 
nouvelles données. Les métriques utilisées pour cette évaluation sont l'erreur absolue moyenne 
(MAE), l'erreur quadratique moyenne (MSE), la racine carrée de l'erreur quadratique moyenne 
(RMSE) et le coefficient de détermination (R2). Ces métriques ont fourni des informations 
précieuses sur la précision et la robustesse de chaque modéle. 


Voici un résumé des performances obtenues par chaque modèle : 


Régression linéaire : MAE=69468.98, MSE=15019992448.33, RMSE=122556.08, R2=0.52 
Forét aléatoire : MAE=351.52, MSE=11364943.77, RMSE=3371.19, R2=1.00 

XGBoost : MAE=3566.00, MSE=48885039.02, RMSE=6991.78, R2=1.00 

Arbre de décision : MAE=566.84, MSE=24997197.69, RMSE=4999.72, R2=1.00 


3-3.4 Analyse des résultats : 


La régression linéaire, bien que simple et facile à interpréter, a montré une précision modérée 
avec un R2 de 0,52, indiquant que le modèle explique 52% de la variabilité des prix de 
immobilier. Cela suggère que la relation entre les variables indépendantes et le prix de 
l'immobilier peut ne pas être linéaire ou qu'il peut y avoir des variables significatives qui ne sont 
pas prises en compte dans le modèle. 


En revanche, la Forêt aléatoire, XGBoost et l'Arbre de décision ont montré une précision 
extrêmement élevée, avec un R2 de 1,00 pour chaque modèle. Cela signifie que ces modèles 
peuvent expliquer toute la variabilité des prix de l'immobilier. Cependant, un score R2 de 1,00 
peut également indiquer un sur-apprentissage, où les modèles sont très bien adaptés aux 
données d'entraînement, mais peuvent ne pas généraliser aussi bien sur de nouvelles données. 
Lors de la validation croisée, cela devrait être exploré davantage. 


En ce qui concerne les erreurs MAE, MSE et RMSE, la Forêt aléatoire, XGBoost et l'Arbre de 
décision ont significativement surpassé la Régression linéaire. Cela indique que ces modèles 
sont capables de faire des prédictions de prix de l'immobilier avec une erreur plus faible, ce qui 
est désirable dans notre contexte. 


Dans l'ensemble, ces résultats suggèrent que la Forêt aléatoire, XGBoost et l'Arbre de décision 
sont prometteurs pour la prédiction des prix de l'immobilier. Cependant, des recherches 
supplémentaires sont nécessaires pour vérifier si ces modèles sont généralisables à de nouvelles 
données et pour optimiser leurs performances. 


